تحسين أنظمة التعرف عمى الكالم عن طريق جمع خوارزميتين الستخالص السمات

مجمة جامعة تشرين لمبحوث والد ارسات العممية _ سمسمة العموم الهندسية المجمد )39( العدد )1( 2017 Tishreen University Journal for Research and Scientific Studies - Engineering Sciences Series Vol. (39) No. (1) 2017 تحسين أنظمة التعرف عمى الكالم عن طريق جمع خوارزميتين الستخالص السمات د. جعفر الخير )تاريخ اإليداع.2016 / 10 / 9 ق ب ل لمنشر في )2017 / 2 /7 ممخ ص تعد تقنيات التعرف عمى الكالم من أىم التقنيات الحديثة التي دخمت بقوة في مجاالت الحياة المختمفة سواء الطبية أو األمنية أو الصناعية. وبناء عميو تم تطوير العديد من األنظمة المعتمدة عمى طرق مختمفة في استخالص السمات و التصنيف. في ىذا البحث تم إنشاء ثالثة أنظمة لمتعرف عمى الكالم تختمف عن بعضيا البعض بالطرق المستخدمة في مرحمة استخالص LPCCأما الHMM كمصنف. السمات حيث استخدم النظام األول خوارزمية النظام الثالث فاستخدم خوارزمية MFCCبينما استخدم النظام الثاني خوارزمية PLP.تشترك ىذه األنظمة بطريقة التصنيف حيث استخدمت خوارزمية في البداية تم د ارسة وتقييم أداء عممية التعرف عمى الكالم لألنظمة الثالثة السابقة المقترحة منفردة. بعد ذلك تم تطبيق خوارزمية الجمع عمى كل زوج من األنظمة المدروسة وذلك لد ارسة أثر خوارزمية الجمع في تحسين التعرف عمى الكالم. تم اعتماد نوعين من األخطاء األخطاء الت ازمنية errors) simultaneous )واألخطاء االعتمادية errors( (dependent كوحدة مقارنة لد ارسة فعالية خوارزمية الجمع في تحسين أداء عممية التعرف عمى الكالم. يتبين من نتائج المقارنة أن أفضل نسبة تعرف عمى الكالم تم الحصول عميو وPLPحيث تم الحصول عمى معدل تعرف %93.4. ا في حالة جمع الخوارزميتان MFCC الكممات المفتاحية التعرف عمى الكالم استخ ارج السمات نماذج ماركوف المخفية. أستاذ مساعد قسم هندسة الحاسبات والتحكم اآللي كمية الهندسة الميكانيكية والكهربائية جامعة تشرين الالذقية سورية. 43

تحسين أنظمة التعرف عمى الكالم عن طريق جمع خوارزميتين الستخالص السمات الخير مجمة جامعة تشرين لمبحوث والد ارسات العممية _ سمسمة العموم الهندسية المجمد )39( العدد )1( 2017 Tishreen University Journal for Research and Scientific Studies - Engineering Sciences Series Vol. (39) No. (1) 2017 Improvement of Speech Recognition by Merging Two Features Extraction Algorithms (Received 9 / 10 / 2016. Accepted 7 / 2 / 2017) ABSTRACT Dr. Jaffar Alkhier The speech recognition is one of the most modern technologies, which entered force in various fields of life, whether medical or security or industrial techniques. Accordingly, many related systems were developed, which differ from each otherin feature extraction methods and classification methods. In this research,three systems have been created for speech recognition.they differ from each other in the used methods during the stage of features extraction.while the first system used MFCC algorithm, the second system used LPCC algorithm, and the third system used PLP algorithm.all these three systems used HMM as classifier. At the first, the performance of the speechrecognitionprocesswas studied and evaluatedfor all the proposedsystems separately. After that, the combination algorithm was applied separately on eachpair of the studied system algorithmsin order to study the effect of using the combination algorithm onthe improvement of the speech recognition process. Twokinds of errors(simultaneous errors and dependent errors) were usedto evaluate the complementaryof each pair of the studied systems, and to study the effectiveness of the combination on improving the performance of speech recognition process. It can be seen from the results of the comparison that the best improvement ratio of speech recognition has been obtained in the case of collection MFCC and PLP algorithms with recognition ratio of 93.4%. Key words: Speech recognition, features extraction, Markov Hidden models Assistant DeProfessor, Department of computer and automatic control, Faculty of mechanical and electrical engineering, Tishreen University, Lattakia, Syria, 44

Tishreen University Journal. Eng. Sciences Series مجمة جامعة تشرين العموم اليندسية المجمد )39( العدد )1( 2017 مقدمة: 45 بدأ اىتمام خب ارء الحاسب والباحثين في مجال التعرف عمى الكالم منذ أكثر من أربعة عقود وذلك لكي يصل اإلنسان إلى مرحمة تجعمو قاد ار عمى التخاطب مع الكمبيوتر واعطاءه األوامر والتعميمات صوتيا وبدون الحاجة إلى الكتابة وغيرىا من الطرق وذلك توفي ار لموقت والجيد. وفي السنوات األخيرة تطورت نظم التعرف عمى الكالم تطو ار" واضحا" وكبي ار" بحيث أصبحت ب ارمج التعرف اآللي تدخل في أغمب مجاالت الحياة ووصمت إلى دقة مرضية نوعا" ما الكالم اعتمادا عمى الطرق المستخدمة في استخ ارج السمات [1]. يمكن تصنيف أنظمة التعرف عمى methods )(feature extraction وطرق التصنيف methods) )classification التي تعتمدىا[ 2 ]. تؤدي عممية استخ ارج بعض المعمومات من إشارة الكالم إلى خسارة معمومات أخرى حيث أن طرق استخ ارج السمات المطموبة لمتعرف عمى الكالم تختمف عن بعضيا البعض بالسمات التي تعتمدىا وبالتالي فإن لكل طريقة نسبة تعرف صحيحة محدودة وغير كاممة [ 3[ ]4[. بناءا عمى ذلك ظيرت فكرة جمع مي ازت نظامين أو أكثر من أجل تحسين عممية التعرف باالستفادة من مي ازت كل نظام لتعويض النقص أو الضعف في األنظمة األخرى. ومنو كانيدفيذه الد ارسةتحسيننتائجالتعرفعمىالكالممنخالاللجمعبينأكثرمنتقنيةمنالتقنياتالمستخدمةفياستخ ارجالسمات extraction( )feature ومقارنتيا لموصول إلى نظام تعرف بأفضل أداء. في بداية ىذاالبحث سيتم تقديم موجز مختصر عن ميام معالجة الكالم وأىم مي ازتو ليتم بعدىا شرح خوارزميات استخالص السمات المستخدمة في أنظمة التعرف عمى الكالم. خوارزمية الجمع المقترحة سيتم شرحيا في الفقرة ال اربعة يمييا طرق البحث ومناقشة النتائج ليتم بعدىا تمخيص البحث بخاتمة تمخص أىم النتائج التي تم الوصول إلييا. مقدمة في معالجة الكالمProcessing :Introduction to Speech يمكن تقسيم معالجة الكالم اعتمادا عمى الميام الموكمة إليياإلى عددمن المجاالت الرئيسية وىي: - التعرف عمى الكالم ( recognition :)Speech حيث ت حو إلشارة الكالم إلى تدفق من الرموز )الفونيمات والكممات( التي تمثل المعمومات في الكالم. - التعرف عمى المتكمم recognition( :)Speaker لمعرفة المتكمم الذي قام باصدار اشارة الكالم من مجموعة من المتكممين ذات سمات صوتية معروفة - التحقق من المتكمم ( verification :)Speaker لمتأكد من أن المتكمم الذي قام باصدار اشارة الكالم ىو نفسو الشخص الم ارد التأكد منو أم ال. - تركيب الكالم synthesis( :)Speech وذلكبتوليد اشا ارت الكالم اصطناعيا بحيث تكون سمات ىذا الكالم مختمفة ولم يتم اصدارىا من أي متكمم قبل ذلك. - ترميز الكالم ( coding :)Speech يتم تمثيل اشارة الكالم بصيغة فعالة والتي تستخدم ألغ ارض النقل والتخزين بحيث يمكن استعادة االشارة االصمية فيما بعد. يركز ىذا البحث بشكل اساسي عمى ميمة التعرف عمى الكالم حيث سيتم د ارسة وتقييم أثر جمع خوارزميتي استخالص سمات عمى تحسين عممية التعرف عمى الكالم.

تحسين أنظمة التعرف عمى الكالم عن طريق جمع خوارزميتين الستخالص السمات الخير أ.أنواع الكالم: في البداية وقبل البدء بشرح التقنيات والخوارزميات المستخدمة في مجال التعرف عمى الكالم سنتكمم بشكل موجز عن أىم المي ازت والمصطمحات المستخدمة في ىذا المجال. يتألف الكالم الم ارد التعرف عميو بواسطة أنظمة التعرف عمى الكالم من مجموعة من الكممات التي يمكن تصنيفيا بالشكل التالي: - 1 الكممة المعزولة word) :(isolated تعني كممة واحده يستقبميا ويحمميا النظام في وقت واحد. أي مايعني أن النظام يفرق بين الكممات بواسطة سكوت المستخدم بين كل كممة وكممة ويكون ىذا النظام لو حالتين إما استماع أو صمت. - 2 الكممة المتصمة word) connected ):تعني ايضا كممة واحده يستقبميا ويحمميا النظام في وقت واحد بنفس طريقة الكممات المعزولةلكن ىنا يتم تقميل فتره الصمت بين الكممات بحيث تبدو كأنيا متصمة أو كأنيا جممة متقطعة. - الكالمالمستمر( speech :(continuous يتم استخدام جمل كاممة بنطق طبيعي بدون أية شروط 3 عمى طريقة النطق لممستخدم. حيث يعتبر ىذا النظام الذي يستخدم ىذا النوع من الكالم من أصعب األنظمة تطبيقافي التعرفعمى الكالم لصعوبة تحديد حدود كل كممة عمى حدىوأيضا قمة الدقة في نطق الكممات عندما تكون ضمن الجممة وعدم ثبات طول الكممة من مستخدم إلى آخر[ 6 ]. في ىذا البحث تم استخدام كممات معزولة ب. isolatedفي word عممية المقارنةود ارسة فعالية خوارزمية الجمع اعتمادا عمى كممات معزولة تم تسجيميا بواسطة عدة أشخاص من أجل عممية المقارنةوالتي سيتم شرحيا الحقا. تطبيقات التعرف عمى الكالم: يوجد العديد من التطبيقات العممية ألنظمة التعرف عمى الكالم منيا: التعرف عمى الكالم الممفوظ وتحويمو إلى نص حاسوبي أومعرفة من ىو الشخص الذي يتكمم في مقطع صوتي من ضمن مجموعة من األشخاص الذين يحتفظ النظام بمقاطع صوتية لكالميم[ 7 ]. التعميم والتعمم: لعمم األصوات دور تطبيقي كبير يتمثل في تعمم المغات وتعمميا. والعديد من التطبيقات التي في مجاالت الحماية واألمان مثل البصمة الصوتية وتطبيقات مختمفة لمساعدة المعوقين إلخ... ج. - 1 نظام التعرف عمى الكالم: تتكون معظم األنظمة الحديثةلمتعرف عمى الكالم والمعتمدة عمى نموذج ماركوفمن ثالثةم ارحألساسية : مرحمة استخالصالسمات ( extraction Feature (:يتم في ىذه المرحمة تحويل إشارة الكالم إلى تسمسل من أشعة السمات vectors) feature (التي تمثل المعمومات المخزنة في الكالم المنطوق. يتم في ىذه المرحمة تقميل أبعاد إشارة الكالم األصمية ( reduction )dimensionality إلعداد ىذه اإلشارة في صيغة المتطمبات األساسية لمرحمة التصنيف التالية.من الخصائص اليامة لمرحمة استخ ارج السمات ىو كبت المعمومات التي ليس ليا أىمية )irrelevant) من أجل تصنيف صحيح مثل المعمومات حول المتحدث)التردد األساسي( والمعمومات التي تخص قناة النقل )ممي ازت المايكروفون(. 46

Tishreen University Journal. Eng. Sciences Series مجمة جامعة تشرين العموم اليندسية المجمد )39( العدد )1( 2017-2 مرحمة التصنيف ( classification Acoustic (:وظيفة المصنف ىو إيجاد الرسم التخطيطي) mapping ( بين تسمسل أشعة السماتوبين عنصر الكالم المتعرف عمييا. تم استخدام المصنف Hidden (HMM) Markovفي Model ىذا البحث وىو من أشير المصنفات المستخدمة في مجال التعرف عمى الكالم في الوقت الحالي. - 3 نماذج المغة ( models Language (:وظيفة نماذج المغة ىو اختيار الفرضيات التي ىي عمى األرجح التسمسل الصحيح لعناصر الكالم لمغة معطاة [8]. تعتمد درجة تعقيد نموذج المغة المستخدم عمى درجة تعقيد المشكمة المطموب حميا فمثال يكون نموذج المغة لمتعرف عمى الكالم المستمر أكثر تعقيدا منو عند معالجة عدد محدد من األوامر المنطوقة. خوارزميات استخالص السمات: تماستخدامالخوارزمياتالتالية( MFCC ) Mel Frequency Cepstral Coefficients و Linear (LPCC) Prediction Cepstral coefficients و (PLP) ]15[PerceptualLinear Prediction في مرحمة استخالص السمات ألنظمة التعرف عمى الكالم المدروسة في ىذا البحث. في ىذه الفقرة سيتم شرح مبدأ وآلية عمل كل خوارزمية عمى حدى. -1 1 خوارزمية :MFCC تعتبر خوارزمية ال Mel (من Frequency Cepstral Coefficients ( MFCC الخوارزميات السائدة والمييمنة المستخدمة في استخالصالسمات في نظم التعرف عمى الكالم وذلك بسبب حساسية مرشحاتيا لخواص إشارة الصوت البشرية[ 9 ].تستخدم معامالت ال MFCC بشكل كبير في التعرف عمى الكالم حيث تم تقديم ىذه المعامالت من قبل العالمين Davis and Mermelstein في عام 1980 وما ازلت متقدمة في ىذا المجال منذ ذلك الوقت. إن األصوات التي تولد من قبل اإلنسان يتم ترشيحيا حسب شكل المسمك الصوتي tract) (vocal فإذا تمكنا من تحديد شكل المسمك الصوتي بدقة فإنو يمكن تحديد الصوت (phoneme) الذي يتم إنتاجو. يتجمى شكل المسمك الصوتي في غالف طيف طاقة الزمن القصير ( spectrum )short time power حيث أن ىدف ال MFCC ىو تمثيل ىذا الغالف بدقة. تعتمد ال MFCC عمى التغي ارت المعروفة في عرض حزمة الترددات لألذن البشرية حيث أن لمرشحاتيا تباعدا خطيا ضمن مجال الترددات المنخفضة )األقل من 1000 ىرتز(ولوغاريتميا ضمن مجال الترددات المرتفعة )أكبر من 1000 ىرتز( وىي تستخدم من أجل التقاط الصفات الرئيسية لمكالم ] 9 [.يوضح الشكل ( 1 ) خطوات عمل خوارزمية ال.MFCC الشكل ( 1 ) المخطط الصندوقي لعمل الخوارزمية MFCC 47

تحسين أنظمة التعرف عمى الكالم عن طريق جمع خوارزميتين الستخالص السمات الخير pre-emphasis يتم تطبيق عممية )high pass filter عمميا مرشح تردد عالي )وىي pre-emphasis عمى اإلشارة وذلك من أجل تعويض جزء التردد العالي الذي تم فقده أثناء آلية إنتاج الكالم )زيادة الطاقة النسبية لمطيف عالي التردد( حيث يتم إعادة تقييم كل قيمة في إشارة الكالم باستخدام الصيغة )1( s2(n) = s(n) - a*s(n-1) )1( حيث: :s(n) إشارة الكالم pre-emphasis إشارة الخرج بعد عممية ال :s2(n) a: ثابت تت اروح قيمتو بين 0.9 و 0.1 )framing( التأطير إشارة الكالم ىي إشارة متغيرة باستم ارر لذلك من أجل تبسيط الد ارسة نعتبر أنو من أجل نطاق زمني قصير scale) (short time فإن إشارة الصوت ال تتغير كثي ار ليذا السبب يتم تقطيع اإلشارة إلى عدد من اإلطا ارت (frames) زمن كل إطار من 20 إلى وذلك من أجل تسييل االنتقال من إطار إلى آخر[ 10 ]. )windowing( النوفذة بالعالقة) 2 (: 40 ميمي ثانية مع وجود تداخل اختياري يساوي نصف أو ثمث حجم اإلطار (2) كل إطار( frame ) سوف يخضع لعمية النوفذة (windowing) باستخدام نافذة ىامينغ window) (Hamming وذلك منأجل القضاء عمى االنقطاعات عند الحواف. تعطى نافذة ىامينغ حيث w(n) ىو مطال العينة الجديد. n ىو ترتيب العينة في النافذة. N ىو الطول الكمي لمنافذة بعد عممية النوفذة windowing سوف يتم تطبيق تحويل فورييو السريع استخ ارج مركبات التردد لإلشارة في مجال الزمن[ 11 ]. FFT من أجل كل إطار وذلك من أجل )Mel frequency filtering( ترشيح اإلشارة وفقا لتردد ميل تعمل خوارزمية الMFCC عمى ترشيح طيف اإلشارة الصوتية spectrum( )short time power عن طريق مجموعة من المرشحات المثمثية bank) (Mel filter التي صممت كمحاكاة لمرشحات تمرير الحزمة band pass filtering التي تظير في النظام السمعي.تكون مجموعة المرشحات المثمثية السابقة متباعدة بانتظام وفقا لمقياس ميل الترددي) scale Mel (الذي frequency يعطى بالعالقة )3(: حيث m: التردد المقاس لنغمة صافية tone) perceived )وf :ترددىا frequency of pure المقاس األصمي (3) 48

Tishreen University Journal. Eng. Sciences Series مجمة جامعة تشرين العموم اليندسية المجمد )39( العدد )1( 2017 يستطيع اإلنسان أن يميز التغي ارت الصغيرة في الpitch )وىي االرتفاع أو االنخفاض النسبي لنغمة (tone) كما تدركيا األذن والتي تعتمد عمى عدد االىت از ازت التي تنتجيا الحبال الصوتية في الثانية( وبشكل أفضل عند الترددات الصغيرة من الترددات الكبيرة.بالتالي فإن تضمين ىذا المقياس يجعل سماتنا أقرب إلى سمع اإلنسان[ 12 ]. يتم بعد ذلك حساب الموغاريتم لطيف مجال ميل spectrum) (Mel scale ومن ثم يستخدم تحويل جيب التمام المتقطعDCTإلعادة تحويل طيف مجال ميل الموغاريتمي إلى مجال الزمن حيث نحصل نتيجة ىذا التحويل عمى شعاع الMFCC. -2 1 خوارزمية :LPCC يبين الشكل ( 2 (المخطط الصندوقي لعمل خوارزمية ال LPCC.إن الفكرة الرئيسية لخوارزمية ال LPCCالمعتمدة عمى تحميل التنبؤ الخطي Linearوالذي Predictive Analysis بدوره يعتمد عمى آلية إنتاج الكالم )أي أنو يستخدم نموذج مرشح-مصدر source-filter التقميدي( ىي أن عينة محددة من الكالم في الوقت الحالي يتم تقريبيا كمزيج خطي من عينات الكالم السابقة[ 13 ]. الشكل ( 2 ) المخطط الصندوقي لعمل الخوارزمية LPCC من خالل تقميص مجموع مربعات االختالفات )عمى فترة زمنية محدودة( بين عينات الكالم الفعمية وقيم التوقع )التنبؤ( الخطية سوف يتم تحديد مجموعة فريدة من البا ارمت ارت )معامالت التنبؤ الخطية( ىذه المعامالت تشكل أساسا لتحميالت التنبؤ الخطي لمكالم.في الواقع إن عوامل التنبؤ الفعمية ال تستخدم في التعرف عمى الكالم ألنيا نموذجية تظير التباينالعالي لذلك يتم تحويل معامالت التنبؤ ىذه إلى مجموعة أخرىمن البا ارمت ارت ىي Cepstral Coefficients بواسطة المعادالت الرياضية التالية )4(. (4) pre- حيثa(m) P m=1 : تعبر عن معامالت التنبؤ الخطي.LPC coefficients.model order يعبر عن ترتيب النموذج : P يبين الشكل ( 3 ) خطوات الخوارزمية لألمر الصوتي shutdown والتي تستخدم نفسعمميات المطبقة في خوارزمية الMFCC. windowing النوفذة emphasis التأطيرframing 49

تحسين أنظمة التعرف عمى الكالم عن طريق جمع خوارزميتين الستخالص السمات الخير الشكل ( 3 ) خطوات الخوارزمية LPCC لألمر الصوتي "shutdown" -3 1 خوارزمية :PLP تعتمد ىذه التقنية عمىالعالقة بين مؤثر فيزيائي واإلد اركات المؤثرة ( تقوم باستبعاد المعمومات التي ليس ليا صمة بالكالم وبالتالي تحسين عممية التعرف. تعتبر خوارزمية ال )psychophysics of hearing حيث PLPمماثمة ل LPC إال أن خصائصيا الطيفية تم تحويميا لتتناسب مع خصائص النظام السمعي عند األنسان حيث أن PLP تقارب ثالث جوانب رئيسية [14]: - منحني تميي ازلحزمة الحدية curve( )The critical-band resolution - منحني تساوي الجيارة)الشدة الصوتية( curve( )The equal loudness -عالقة قانون الطاقة بشدة الجيارة relation( )The intensity-loudness power-law يبين الشكل ( 4 (المخطط الصندوقي لعمل خوارزمية ال PLP الشكل ( 4 ) المخطط الصندوقي لعمل الخوارزمية PLP بعد معالجة إشارة الكالم يتم حساب تحويل فورييو السريع FFT لمحصول عمى طيف اإلشارة (power pre- بعدىا عممية ومن ثم يتم استخدام مرشحات بشكل شبو منحرف تعتمد عمى نطاق barkلتتم spectrum) equal-loudness ( بواسطة منحني قياس ارتفاع الصوت )power spectrum) لطاقة الطيف emphasis )curve والتي تقارب الحساسية غير المتساوية لسمع اإلنسان عند ترددات مختمفة عند حوالي 40 حيث db أن كل معامل لطاقة الطيف power spectrum coefficient سوف يتم ضربو بالوزن E الذي يعطى بالعالقة [5]: (5) 50

Tishreen University Journal. Eng. Sciences Series مجمة جامعة تشرين العموم اليندسية المجمد )39( العدد )1( 2017 )LP) ممايسبب انخفاضا في الحساسية في نطاق التردد العالي وىذا ما يجعل مالئمة الطيف لمتنبؤ الخطي أكثر تجانسا عمى نطاق الترددات العالية. تتم بعد ذلك عممية ضغط لطيف الكالم ويتم تنفيذ ىذه العممية وفق hearing) (power-law of والذي ينمذج intensity والشدة loudnessالمقاسةليا. حيث يتم في ىذه المرحمة تقميل التغي ارت العالقة غير الخطية بين الكثافة (peaks) أقل (smoother) مع قمم الديناميكية وتسطيح قمم الطيف ليكون خرج ىذه المرحمة طيف مسطح أكثر ومن ثم الحصول عمى cepstral وضوحا. في المرحمة التالية يتم حساب المعامالت التنبؤية وتحويميا إلى معامالت شعاعPLP. يبين الشكل ( 5 ) نتائج الخوارزمية PLP من أجل األمر الصوتي " shutdown ". سالسل ماركوفChain :Markov الشكل ( 5 ) خطوات الخوارزمية PLPلألمر الصوتي "shutdown" يمكن تصنيف النماذج الرياضية إلى محددة) Deterministic ( أو تصادفية.)Stochastic( وفي الحياة العممية توجد عدة حاالت تتضمن ظواىر ذات سموك غير قطعي ال يمكن السيطرة عمييا بشكل تام أو التنبؤ بسموكيا المستقبمي بشكل مؤكد والتي يطمق عمييا مصطمح العمميات التصادفية [ 16 ].فيصبح ىنا النموذج التصادفي ىو األكثر مالءمة لتمثيميا رياضيا. 51

تحسين أنظمة التعرف عمى الكالم عن طريق جمع خوارزميتين الستخالص السمات الخير الشكل ( 6 ) سمسمة ماركوف ل 6 حاالت مع انتقاالتها يمكن لممنظومة الموضحة ب الشكل ( ) 6 أن توصف خالل أي فترة زمنية كأن تكون موصوفة في واحدة من مجموعة الحاالت المتقطعة) N ( ) SN. S2 S1 (.وبالتالي )Discrete states( خالل تواجد ىذه المنظومة ضمن تمك الحاالت المتقطعة فإنيا تخضع إلى تغي ارت في الحالة )من الممكن الرجوع إلى الحالة نفسيا( وفقا لمجموعة من االحتماالت المرتبطة بالحالة. ويرمز إلى الزمن المرتبط بتغير الحالة ب ( N,1,2=t( ويرمز لمحالة الحقيقية خالل الزمن )t( ب.)Qt( إن وصف االحتمالية بصورة كاممة لممنظومة أعاله يتطمب وصف الحالة الحالية عند الزمن )t( فضال عن كل الحاالت السابقة ليا. فينظر إلى سمسمة ماركوف كنوع من مخطط االحتماالت Model) (Probabilistic Graphical - - 1 2 أو طريق لتمثيل الفرضيات االحتمالية. يمكن القول أن سمسمة ماركوف محددة بالمكونات التالية: مجموعة N من الحاالت وتمثل ب{ Q={q1,q2,.qN المصفوفة االحتمالية االنتقالية )transition probability matrix( A وتمثل ب حيث أن كل aij تمثل احتمالية االنتقال من الحالة i إلى الحالة j بحيث تحقق الشرط التالي: - 3 حاالت خاصة ىي حاالت البداية q0 وحالة النياية qf التي ال ترتبط مع أية مشاىدات.)Observations( - 4 التوزيع االحتمالي االبتدائي لمحاالت distribution( )Initial probability 52

Tishreen University Journal. Eng. Sciences Series مجمة جامعة تشرين العموم اليندسية المجمد )39( العدد )1( 2017 وكذلك تكون االحتمالية( probability ) التي تبدأ بيا سمسة ماركوف عند الحالة i في بعض الحاالت.(initial state) يعني أنو ال يمكن أن تكون الحالة ابتدائية πiمما = 0 وتعرف فرضية ماركوف بالعالقة التالية: P(qi\q1 qi-1) = P(qi\qi-1) حيث أن: عند توفر الحاالت q1 qi-1 qi تمثل احتمالية حدوث الحالة P(qi\q1 qi-1) و) P(qi\qi-1 تمثل احتمالية حدوث الحالة qi عند توفر الحالة qi-1 التي تسبقيا فقط[ 17 ]:. -4 1 نموذج ماركوف المخفي Hidden Markov Model نموذج ماركوف المخفي ( )HMM عبارة عن نظام محطات اآللة المحدودة ( machine )finite state القادر عمى توليد مشاىدات باحتمالية انتقال الحالة عند الزمن t التي تعتمد فقط عمى الحالة السابقة ليا عند الزمن -t 1. عمما أن تسمسل الحالة التي تنتج المشاىدة المعطاة مجيول. لذا ففي نموذج ماركوف المخفي تكون الحالة ليست مرئية لذلك سمي بنموذج ماركوف المخفي واالنتقاالت بين الحاالت تحكميا مجموعة من االحتماالت يطمع عمييا احتماالت االنتقال من حالة معينة والتي يمكن أن تنتج نتيجة أو مشاىدة بحسب توزيع االحتمالية المرتبط بتمك الحالة. إن االختالف بين نموذج ماركوف المخفي ونموذج ماركوف ىو وجود االحتماالت اإلضافية والذي يمثل الجزء المخفي لمنموذج ويرتبط بالمشاىدة الناتجة من كل حالة. فنموذج ماركوف المخفي ىو نموذج تصادفي قادر عمى التصنيف اإلحصائي. -5 1 آلية عمل: HMM يظير الشكل ( 7 ) نموذج ماركوف المولد حيث يتم اختيار الحالة األولى وىي األعمى احتمالية في احتمالية الحالة االبتدائية عند بداية دخول المالحظات إلى الحالة. يتم حساب احتمالية االنتقال من الحالة الحالية إلى كل الحاالت الممكن االنتقال الييا بناء عمى المالحظة التي تمت ق ارءتيا حيث يتم االنتقال إلى الحالة التي لدييا احتمالية aij أعمى من الحاالت األخريات بحيث نحصل في نياية ىذه العممية عمى احتمالية انتماء ىذه المالحظة إلى ىذه الحالة. و بمعنى آخر احتمالية انتماء ىذه اإلشارة الصوتية إلى الكممة. وبذلك يؤخذ القالب ذو االحتمالية األعمى عمى أنو ىو الكممة الصحيحة. 53

تحسين أنظمة التعرف عمى الكالم عن طريق جمع خوارزميتين الستخالص السمات الخير الشكل ( 7 ) نموذجماركوفالمولد خوارزمية الدمج المقترحة بين نظامي تعرف عمى الكالم: يمكن تمخيص خطوات الخوارزمية المقترحة لمجمع بين نظامين كما ىو مبين في الشكل ( 8 ) حيث: : خرج نموذج ماركوف الخفي وىو عبارة عن مجموعة من :FE (Feature Extraction) استخالص السمات. :HMM المصنف المستخدم مع أنظمة التعرف وىو نموذج ماركوف الخفي. P(O M2)P(O M1) P(O M4) P(O M3) التسمسالت الممكنة لعناصر الكالم واحتماالتيا..HMM االحتمال األكبر من قيم االحتماالت الناتجة عن خرج المصنف M: 1 : االحتمال األكبر الثاني من قيم االحتماالت الناتجة عن خرج المصنف.HMM M 2 :RR1 (Recognition Rating1) معامل التعرف لنظام التعرف األول والذي تم اقت ارحو ليكون الفرق بين قيمة االحتمال األكبر واالحتمال األكبر الثاني من قيم االحتماالت الناتجة عن خرج المصنف HMM لمنظام األول. :RR2 (Recognition Rating2) معامل التعرف لنظام التعرف الثاني والذي تم اقت ارحو ليكون الفرق بين قيمة االحتمال األكبر واالحتمال األكبر الثاني من قيم االحتماالت الناتجة عن خرج المصنف HMM لمنظام الثاني. :RR (Recognition Rate) معدل التعرف النيائي الناتج عن تطبيق خوارزمية الجمع. 54

Tishreen University Journal. Eng. Sciences Series مجمة جامعة تشرين العموم اليندسية المجمد )39( العدد )1( 2017 الشكل ( 8 (مخطط خوارزمية الجمع بين نظامي تعرف يتم تنفيذ ىذه الخطوات عمى نظامي تعرف عمى التوازي: أوال: مرحمة استخالصالسمات: يتم عمى التوازي استخالصالسمات باستخدام نوعين من الخوارزميات ثانيا: مرحمة التصنيف حيث يدخل شعاع السمات المستخرج من المرحمة األولى ومن كل خوارزمية عمى حدى إلى المصنف المستخدم وىو HMM.خرج ىذا المصنف عبارة عن تسمسل من الكممات واحتماالتيا. ثالثا: يتم اختيار القيمة االحتمالية الكبرى لتسمسل االحتماالت M1 من خرج مصنف كل خوارزمية عمى حدى. اربعا: يتم اختيار ثاني أكبر قيمة احتمالية لتسمسل االحتماالت M2 من خرج مصنف كل خوارزمية عمى حدى. خامسا: يتم حساب الفرق بين أكبر قيمة احتمالية وثاني أكبر قيمة احتمالية لنظامي التعرف: RR1=M1-M2,RR2=M1-M2 سادسا: تؤخذ قيمة الفرق األكبر كناتج خرج خوارزمية الجمع. إن ناتج خوارزمية الجمع )الذي اعتمد نتيجة خرج النظام الذي امتمك قيمة الفرق األكبر بين أكبر احتمال واالحتمال األكبر الثاني الذي يميو من سمسمة احتماالت خرج نموذج ماركوف الخفي( يعبر عن زيادة في موثوقية ق ارر ىذا النظاممقارنة مع موثوقية النظام اآلخر لذلك تم اعتماد خرجو كخرج لخوارزمية الجمع. 55

تحسين أنظمة التعرف عمى الكالم عن طريق جمع خوارزميتين الستخالص السمات الخير النتائج والمناقشة: يبين الشكل ( 9 ) مخطط صندوقي لم ارحل العمل: الشكل ( 9 ) المخطط الصندوقي لم ارحل العمل كما ذكرنا سابقا تم بناء ثالثة أنظمة لمتعرف عمى الكالم. النظام األول يعتمد عمى MFCC في استخ ارج السمات. النظام الثاني يعتمد عمى LPCC في استخ ارج السمات. النظام الثالث يعتمد عمى PLP في استخ ارج السمات. حيث استخدمت األنظمة الثالثة الHMM في مرحمة التصنيف. في البداية تم تدريب الHMM عمى مجموعة من معطيات التدريبDatasetلألوامر الصوتية التالية: Net Restart Shutdown Documents المسجمة بواسطة برنامج Audacity وكل أمر بصوت 33 شخص من مختمف األعمار حيث تم حساب معدل التعرف لكل نظام عمى حدى عمى الشكل التالي: عدد العينات الصحيحيةعدد العينات الكمية معدل التعرف = ولد ارسة أداء خوارزمية الجمع ومدى تكامل زوج من االنظمة تم حساب نوعين من االخطاء المعتمدة في الم ارجع العممية وىي ]17[: الوقت - 1 األخطاء الت ازمنية :Simultaneous error تحدث عندما يرتكب النظامين i و Simultaneous error = N sim (i,j ) N ref 100 حيث sim(i,j) : N عدد األخطاء الت ازمنية و : N ref عدد األوامر الصوتية الكمي. j خطأ في نفس 56

Tishreen University Journal. Eng. Sciences Series مجمة جامعة تشرين العموم اليندسية المجمد )39( العدد )1( 2017-2 األخطاء االعتمادية :Dependent errors تحدث عندما يرتكب النظامين نفس الخطأ. Dependent error = N dep (i,j ) N ref 100 حيث dep(i,j) N: عدد األخطاء االعتمادي. تم تطبيق خوارزمية الجمع المقترحة عمى األوامر الصوتية األربعة السابقة بصوت برنامج ال Matlab2012aمع المكتبات المقترحة ومقارنة النتائج. - معدل التعرف الجدول ( يبين 132 عينة صوتية )كالمية( دون تحديد فئة عمرية )وىي ناتج نطق 33 شخص( والتي تم تسجيميا بوساطة برنامج audacity بينما استخدم processing) voicebox )كبيئة, signal عمل لد ارسة خوارزمية الجمع ) 1 قيم نسبة التعرف الناتجة بالنسبة لألنظمة المدروسة باالضافة إلى االنظمة الناتجة عن خوارزمية الجمع. منفردة قبل تنفيذ خوارزمية الجمع الجدول ( 1 ) نسبة التعرف لألنظمة المدروسة المفردة والمجمعة معدل التعرف الخوارزمية 85.4426 % 78.6885 % 82.1639 % 88.5246 % 93.4426 % MFCC LPCC PLP MFCC & LPCC MFCC & PLP 86.8852 % LPCC & PLP نالحظ من النتائج الحاصمة تحسن نسبة التعرف بعد تطبيق خوارزمية الجمع بنسب مختمفة أفضميا عند الدمج بين الخوارزميتين MFCC و.PLP - األخطاء األعتمادية: يبين الجدول ( 2 ) قيم األخطاء االعتمادية بين كل زوج من األنظمة المدروسة حيث يتضح من ىذه النتائج أن أفضل تكامل يحصل بين الخوارزميتين MFCC و PLP وذلك لعدم االشت ارك باألخطاء في نفس الوقت. LPCC 4.92% 3.28% -- الجدول ( 2 ) األخطاءاالعتمادية PLP MFCC 0% -- -- 0% 3.28% 4.92% MFCC PLP LPCC 57

تحسين أنظمة التعرف عمى الكالم عن طريق جمع خوارزميتين الستخالص السمات الخير - األخطاء الت ازمنية: يبين الجدول ( 3 ) قيم األخطاء الت ازمنية بين كل زوج من األنظمة المدروسة حيث يتضح من ىذه النتائج أن أفضل تكامل يحصل بين الخوارزمية MFCC من جية وكال من الخوارزميتان PLP و LPCC حيث تبين النتائج أن الخوارزمية MFCC تعطي أخطاء مختمفة مقارنة مع الخوارزميتان PLP و LPCC مما يجعميا مناسبة لعممية الجمع. LPCC 6.56% 9.84% -- الجدول ( 3 ) األخطاء الت ازمنية PLP MFCC 6.56% -- -- 6.56% 9.84% 6.56% MFCC PLP LPCC الخاتمة: تعتبر ميزة التعرف عمى الكالم من المواضيع اليامة والتي القت الكثير من االىتمام لدى الباحثين لما ليا من استخدامات واسعة في مجاالت الحياة المختمفة. فقد تم تطوير العديد من الخوارزميات والتي أظيرت نتائج الد ارسة والمقارنة وجود محاسن ومساوئ لكل خوارزمية. في ىذا البحث تم اقت ارح خوارزمية تقوم باالستفادة من محاسن الخوارزميات المقترحة في الم ارجع العممية بيدف تحسين معدل التعرف قدر االمكان عن طريق الجمع بين ىذه الخوارزميات واالستفادة من اختالفيا في النتائج. حيث أظيرت النتائج تحسنا ممحوظا في نتائج التعرف لكل زوج من األنظمة المجمعة combined systems عمى نتائج األنظمة المفردة. باإلضافة إلى ذلك فقد بينت النتائج تفوق خوارزمية ال MFCC عمى الخوارزميتين PLP و LPCC من ناحية تكامميا في عممية الجمع. لزيادة موثوقية خوارزمية الجمع المقترحة واعطاءىا صفة المعيارية سيتم توسيع ىذا البحث بحيث يتم زيادة عدد الطرق المستخدمة في مرحمة استخ ارج السمات وبالتالي زيادة دائرة المقارنة الختيار أفضل زوج. باإلضافة إلى زيادة عدد األوامر الصوتية المختبرة واستخدام قواعد بيانات صوتية عالمية مستخدمة في د ارسة الخوارزميات المستخدمة في مجال التعرف عمى الصوت. الم ارجع: [1] Marius Zbancioc, MihaelaCostin :using neural networks and LPCC to improve speech recognition, International IEEE SCS Conference, Proceedings, Vol. 1, 2003 EX 720, pp. 445 448. [2] Levy, C., Linares, G., Nocera, P., Bonastre, J.-F. : Reducing computational and memory cost for cellular phone embedded speech recognition system, Acoustics, Speech, and Signal Processing, 2004. Proceedings. (ICASSP '04). IEEE International Conference on (Volume:5 ), pages(309-12 ) vol.5, Print ISBN:9-8484-7803-0. 58

Tishreen University Journal. Eng. Sciences Series مجمة جامعة تشرين العموم اليندسية المجمد )39( العدد )1( 2017 [3] Dimitriadis, Maragos, P. Potamianos:Robust AM-FM Features for Speech Recognition, IEEE signal processing letters, VOL. 12, NO. 9, 2005. [4] Takami Yoshida, Kazuhiro Nakadai, and Hiroshi G. Okuno: Automatic Speech Recognition Improved by Two-Layered Audio-Visual Integration For Robot Audition, 9th IEEE-RAS International Conference on Humanoid Robots December 7-10, 2009 Paris, France. [5] Lavneet Singh, GirijaChettyA Comparative Study of Recognition of Speech Using Improved MFCC Algorithms and Rasta Filters, Information Systems, Technology and Management Communications in Computer and Information Science Volume 285, 2012, pp 304-314. [6] Aleksander Pohl, BartoszZiółko:Using Part of Speech N-Grams for Improving Automatic Speech Recognition of Polish, Machine Learning and Data Mining in Pattern Recognition Lecture Notes in Computer Science Volume 7988, 2013, pp 492-504. [7] BEN FRED, Kaïs OUN : Phoneme Recognition using Hidden Markov Models, International Journal of Control, Energy and Electrical Engineering (CEEE), vol.1, pp.57-61, 2014. [8] DeividasEringis, GintautasTamulevičius: Improving Speech Recognition Rate through Analysis Parameters, Electrical, Control and Communication Engineering. Volume 5, Issue 1, Pages 61 66, ISSN (Online) 2255-9159, May 2014. [9] Annika Hämäläinen, Hugo Meinedo, Michael Tjalve, Thomas Pellegrini, Isabel Trancoso, Miguel Sales Dias: Improving Speech Recognition through Automatic Selection of Age Group Specific Acoustic Models, Computational Processing of the Portuguese Language Lecture Notes in Computer Science Volume 8775, pp 12-23, 2014. [10] HomayoonBeigi: Fundamentals of speaker Recognition-Springer Sience 2011- ISBN: 978-0-387-77591-3. [11] Neustein, Amy; Patil, Hemant: Forensic Speaker Recognition A. (Eds) Springer 2012-ISBN 10: 146140262X/ ISBN 13:9781461402626. [12] K.K PaliWal: Advances in speech, Hearing and Language Processing, Volume1, pages 1-78, 1990, ISBN:1-55938-210-4. [13] Santosh K.Gaikwad, Bharti W.Gawali, Pravin Yannawar: A Review on Speech Recognition Technique, International Journal of Computer Applications (0975 8887), Volume 10 No.3, November 2010. [14] Pitz, M.; Schluter, R; Ney, H.Molau, S., Computing Mel-frequency cepstral coefficients on the power spectrum, Print ISBN: 0-7803-7041-4 INSPEC Accession Number: 7120280 Acoustics, Speech, and Signal Processing, 2001. Proceedings. (ICASSP '01). 2001 IEEE International Conference on (Volume: 1) Page(s): 73-76 vol.1 [15] Namrata Dave, Feature Extraction Methods LPC, PLP and MFCC In Speech Recognition, international journal for advance research in engineering and technology,volume 1, Issue VI, July 2013. [16] H. Hermansky, N. Morgan, A. Bayya, P. Kohn: RASTA-PLP speech analysis techniqe,ieee International Conference on, 1992, pp: 121-124. [17] Lukas Burget :Measurement of complementarity of Recognition Systems, Springer-Verlag Berlin Heidelberg,ISBN 3-540-230421,pages(283-288),2004. 59

تحسين أنظمة التعرف عمى الكالم عن طريق جمع خوارزميتين الستخالص السمات الخير 60